グーグルDeepMindの最新研究は、AIの視覚モデルが全体的には強いが、局所的には弱いという欠点を明らかにし、TIPSv2の解決策を提案しました。この方案は、訓練方法を改良することで、モデルが画像の局所的な詳細をより正確に特定できるようにし、例えばパンダの左後足の位置を識別するなど、視覚-言語モデルにおける細かいセグメンテーションタスクの長期的な課題を解決しました。
Google
$0.7
入力トークン/百万
$2.8
出力トークン/百万
1k
コンテキスト長
Anthropic
$7
$35
200
$2.1
$17.5
$21
$105
Alibaba
$3.9
$15.2
64
-
Bytedance
$0.8
$2
128
Deepseek
$4
$12
Tencent
$1
32
Openai
$1.75
$14
400
$525
Chatglm
Iflytek
$0.3